Amazon restablece servicios tras el apagón mundial
El servicio en la nube de Amazon volvió a estar en pie este lunes a la tarde, después de un gran apagón digital que agitó a miles de sitios, empresas y servicios en todo el mundo. Esto incluyó aplicaciones populares como Snapchat y Reddit. Según la compañía, todo está funcionando con normalidad, aunque aclararon que algunos de sus servicios de AWS todavía tienen una acumulación de mensajes, lo que podría demorar unas horas en resolver.
La interrupción tuvo un impacto global, afectando a trabajadores desde Londres hasta Tokio. Muchos se encontraron con problemas para realizar tareas cotidianas como pagar servicios o cambiar reservas de vuelos. En el Reino Unido, bancos como Lloyds y el Banco de Escocia, así como compañías de telecomunicaciones como Vodafone, reportaron fallos en sus plataformas digitales.
En total, más de mil compañías sufrieron las consecuencias del problema. Entre ellas, nombres conocidos como Reddit, Roblox, Snapchat, Duolingo, y hasta plataformas de transporte como Uber y Lyft. Los propios servicios de Amazon, como su sitio de compras y Prime Video, también sufrieron interrupciones, así como juegos populares como Fortnite y Clash Royale.
El lunes, muchos usuarios continuaron enfrentando dificultades con servicios como la billetera digital Venmo y la plataforma de videollamadas Zoom. Este apagón se considera la mayor interrupción de Internet desde el incidente de CrowdStrike del año pasado, que dejó sin funcionamiento sistemas tecnológicos esenciales en hospitales, bancos y aeropuertos, resaltando la vulnerabilidad de las tecnologías interconectadas.
Un fallo que afectó al mundo entero
El clúster de AWS en el norte de Virginia, conocido como US-EAST-1, ha sido el responsable de varios colapsos importantes de Internet en los últimos cinco años. Amazon aún no ha ofrecido respuestas claras sobre por qué este centro sigue siendo problemático. Los problemas actuales se originaron por complicaciones en el sistema de nombres de dominio (DNS), lo que impedía que las aplicaciones localizaran correctamente la dirección para la API DynamoDB de AWS, crucial para almacenar información de usuarios y otros datos críticos.
Causas del fallo
AWS originalmente señaló que la causa del apagón fue un subsistema que supervisa la salud de sus balanceadores de carga de red, utilizados para distribuir el tráfico entre servidores. El problema, según informaron, surgió en la red interna de EC2, el servicio Elastic Compute Cloud de Amazon, que permite a los usuarios acceder a capacidades de nube a demanda. A las 3 p.m. PT (2200 GMT), la compañía anunció que todos sus servicios habían regresado a la normalidad, aunque algunos, como AWS Config y Redshift, todavía presentaban retrasos en el procesamiento de datos.
Un llamado a mejorar la tolerancia a fallos
El profesor Ken Birman, de la Universidad de Cornell, ha comentado que es urgente que los desarrolladores de software mejoren la tolerancia a fallos. Según él, AWS ofrece herramientas que permiten a los desarrolladores protegerse ante problemas que puedan surgir en sus redes de centros de datos. También mencionó la importancia de contar con copias de seguridad en otros proveedores de la nube para evitar mayores inconvenientes en el futuro.